Научная аналитика: качество данных в приоритете


Тема аналитики научной информации становится всё более актуальной. Появились новые эффективные инструменты для работы с исследовательскими данными. Наблюдается рост числа публикаций в этой области.

Научная аналитика: качество данных в приоритете

С аналитикой связана стратегия развития Научной электронной библиотеки eLIBRARY.RU на ближайшие годы. Основные направления и инструменты были представлены на конференции Science Analytics 2026*.


* Конференция состоялась в Москве 2–3 апреля 2026 г. Организатор — Научная электронная библиотека eLIBRARY.RU.

ОСНОВА ДЛЯ АНАЛИЗА

Безусловно, аналитика возможна только на качественных данных. Как отметил генеральный директор Научной электронной библиотеки eLIBRARY.RU Геннадий ЕРЕМЕНКО, в Российском индексе научного цитирования (РИНЦ) сейчас представлены 80 млн публикаций, в том числе монографии, труды конференций, патенты, гранты, диссертации, препринты, датасеты и рецензии. Из них 19 млн документов с полными текстами, в том числе 13,5 млн в открытом доступе. РИНЦ не только включает российские журналы, но и индексирует весь мировой поток (более 7 млн публикаций в год).

Как отметил эксперт, до 2022 г. eLIBRARY.RU покупала данные Web of Science и Scopus, но сейчас из-за санкций эти базы данных не работают в России. Поэтому подходы к комплектованию библиотеки поменялись: в настоящее время обрабатывается информация из открытых источников.

— Конечно, качество открытых данных пока далеко от совершенства, информация неполная, тем не менее ситуация постепенно улучшается, всё больше издателей серьёзно относятся к распространению своих метаданных. Надеемся, что в перспективе пяти лет открытые базы данных будут сравнимы по качеству с коммерческими, — заявил Геннадий Еременко.

На портале eLIBRARY.RU зарегистрированы 5,6 млн пользователей. В авторском указателе 1,14 млн персоналий, из них в Science Index представлены 813 тыс. Это в основном российские учёные, но сейчас активно регистрируются исследователи из других стран, в том числе из СНГ и Китая. Число организаций в реестре — 123 тыс., из них российских — 17,5 тыс. В Science Index зарегистрированы 5 тыс. организаций.

На портале eLIBRARY.RU более 1 млн просмотров страниц в сутки, за год выгружается свыше 30 млн полнотекстовых файлов и более 150 млн описаний публикаций.

Разработана эффективная система обратной связи для корректировки информации и идентификации авторов, организаций, подразделений, журналов.

Научная аналитика: качество данных в приоритете

— Мы считаем, что это серьёзное преимущество. За счёт обратной связи значительно повышается качество информации. Объём изменений, исправлений, уточнений, которые производятся в базе подобным способом, сравним с объёмом того, что в неё загружается. Это возможно организовать только в распределённой системе, когда множество экспертов работают одновременно, — подчеркнул эксперт.

Новый проект eLIBRARY.RU — аналитика по диссертациям. Стоит задача загрузить в базу все диссоветы и диссертации, обработать библиографические списки.

— Поскольку мы умеем оценивать публикации, то косвенно через список статей, в которых опубликованы результаты исследования, можно оценить и саму научную работу. А через набор диссертаций, рассматриваемых в диссовете, — оценить его деятельность. Важный аспект — подбор и проверка соответствия требованиям и отсутствия аффилированности для членов диссоветов, оппонентов и соискателей, — сказал Геннадий Еременко.

МЕЖДУНАРОДНЫЕ АСПЕКТЫ

По данным Google Scholar, Научная электронная библиотека занимает первое место в мире в рейтинге порталов научных журналов по количеству проиндексированных статей в открытом доступе. eLIBRARY.RU авторизована как национальная система долгосрочного сохранения на портале журналов открытого доступа DOAJ. То есть официально признано, что издатели могут на этом портале архивировать свои журналы.

Заключено соглашение об обмене данными между eLIBRARY.RU и Библиотекой Китайской академии наук, которая создаёт индекс CSCD. Этот индекс размещается на платформе Web of Science, так же как и база данных RSCI eLIBRARY.RU (до 2022 г.). Сейчас станет возможным обмениваться информацией напрямую, минуя Web of Science. Планируются проекты по обработке препринтов, связанные с внедрением искусственного интеллекта (ИИ).

Несмотря на санкции, удалось заключить соглашение с Springer. Издательство сейчас поставляет в РИНЦ метаданные по всем своим журналам.

Как отметил Геннадий Еременко, глобальная идея — создать международную базу данных, которая совмещала бы два качества: открытость и качество метаданных. Это задача непростая, её можно решить, только распределив ответственность между различными странами и организациями.

— Централизованно провести необходимые работы очень сложно. Все ресурсы открытого доступа сталкиваются с проблемами идентификации авторов и организаций. Разобраться с китайскими авторами, например, весьма непросто: много однофамильцев, мало информации. То же самое в Китае: для них кириллица — серьёзная проблема. Объединяя усилия, можно получить интересный результат, возможно, для начала на уровне БРИКС или СНГ, — подчеркнул эксперт.

На данный момент в eLIBRARY.RU приступили к привязке и идентификации иностранных организаций, на этот год запланирована загрузка данных по авторам из ORCID (англ. Open Researcher and Contributor ID — «Открытый идентификатор исследователя и участника». — Примеч. ред.). В результате появится возможность выстраивать глобальную аналитику на уровне стран, регионов, городов, ведомств, организаций, исследовательских групп и научных направлений. В целом это будет система открытого доступа, возможны варианты платного доступа к аналитике. Планируется организовать референтные группы и подборки. Это уже созданные в системе наборы публикаций, авторов, организация и журналов, но при этом каждый пользователь может создавать свои и проводить сравнение по интересующим его показателям.

НЕЙРОСЕТЬ ДЛЯ НАУЧНОЙ АНАЛИТИКИ

Как отметил Геннадий Еременко, несколько лет назад eLIBRARY.RU инициировала совместный проект с Институтом искусственного интеллекта МГУ имени М.В. Ломоносова. Коллеги разработали модель, основанную на научных данных, предоставленных eLIBRARY.RU: русскоязычных и англоязычных аннотациях. Важно было добиться такого результата, чтобы похожие по содержанию статьи, неважно на каком языке, находились рядом в результатах поиска.

Сегодня доступны такие возможности, как поиск тематически похожих статей по аннотации, произвольному фрагменту текста или полному тексту документа (нейропоиск), идентификация автора с учётом тематической близости статьи к другим публикациям автора. Работает автоматическая рубрикация публикаций: существуют мультидисциплинарные журналы, и нейросети хорошо справляются с определением тематических рубрик статей. Интересный вариант — выделение тематических кластеров для детальной аналитики по научным направлениям. Формирование персонального списка оцениваемых журналов для эксперта повышает качество общественной экспертизы.

Подбор рецензентов и экспертов — ещё одна задача, связанная с тематической близостью публикаций.

Важное направление — общественная экспертиза журналов, монографий и сборников трудов конференций. И если журнал можно оценить один раз и дальше считать, что все публикации в нём качественные, то с монографиями сложнее: фактически нужно оценивать каждую, потому что дать оценку

издательству и затем включать все его книги в базы вряд ли оправданно. Поэтому такую работу возможно осуществить путём распределения усилий. Нужно, чтобы в ней участвовали разные эксперты, набирать статистику. Важно, чтобы специалистам предлагали работы исключительно по их узкой тематике, и нейросети здесь хорошо помогают, сообщил эксперт.

Ещё один аспект — кластеризация российской и мировой науки.

— Раньше использовали возможности рубрикатора, пытаясь причислить публикации к какой-либо рубрике, причём на уровне даже не статей, а журналов. Это достаточно грубый подход, где возникает немало проблем, да и сами рубрикаторы часто несовершенны. Кластеризация с помощью нейросети отражает реальную структуру науки, показывает, чем реально занимаются учёные, какова динамика направлений. Можно проанализировать каждый кластер, посмотреть, какие организации работают в той или иной узкой области, какие авторы максимально компетентны, в каких журналах они публикуются, как складываются исследовательские группы. Качество таких кластеров можно оценивать через цитирования в РИНЦ, — отметил гендиректор Научно электронной библиотеки.

eLIBRARY.RU разработала собственный идентификатор eLIBRARY Document Number (EDN). По мнению эксперта, он может стать основой связанности документов в системе. Везде, где присутствуют списки публикаций, если их снабдить идентификатором, поиск и цитирование упрощаются: можно перейти на описание, нередко — на полный текст. EDN присваивается всем типам научных документов, в том числе монографиям, грантам, патентам, диссертациям и датасетам.

EDN получают все новые документы на платформе eLIBRARY.RU, даже если этим не занимается издатель. Для идентификации ссылок разработан API. Отправив текст ссылки в качестве входного параметра запроса к API, можно на выходе получить коды EDN, DOI, ISBN и eLIBRARYID, при условии что данная публикация имеется на портале eLIBRARY.RU.

Научная аналитика: качество данных в приоритете

ЯДРО РАСШИРЯЕТСЯ

Как отметил заместитель генерального директора Научной электронной библиотеки eLIBRARY.RU Виктор ГЛУХОВ, в середине 2000-х гг., когда создавался РИНЦ, существовали лишь формальные требования к журналам. Российские издания включались в него автоматически, никто не проверял их качество, не было отбора и экспертизы. В 2014 г. стартовал совместный проект с компанией Clarivate Analytics, владелицей индекса Web of Science, по отбору лучших российских журналов и включению их в совместную базу данных, которая получила название Russian Science Citation Index RSCI. До 2022 г. она размещалась на платформе Web of Science и была так называемой российской полкой.

Ядро РИНЦ — это подмножество индекса, в которое включены публикации лучшего качества. Сейчас в него входят российские журналы из RSCI, Scopus и Core Collection Web of Science.

Геннадий Еременко подчеркнул, что если на начальном этапе Ядро РИНЦ и Белый список (Единый государственный перечень научных изданий, ЕГПНИ) были близки по составу (Белый список создавался по схожим принципам), то сейчас в ЕГПНИ попадают в основном журналы из перечня Всероссийской аттестационной комиссии: это уже другие основания и иные, нередко сниженные, требования к порогу входа. Ядро РИНЦ сохраняет подход к требованиям качества и будет развиваться самостоятельно.

До сих пор в эту базу включались только статьи из журналов. Сейчас Ядро РИНЦ расширяется, но не с точки зрения снижения порога вхождения, а по типам охвата источников. Как отметил гендиректор eLIBRARY.RU, в разных направлениях популярность источников неодинакова. Поэтому монографии и сборники трудов авторитетных конференций должны присутствовать в Ядре РИНЦ. Стоит задача научиться оценивать качество этих типов публикаций.

В начале 2026 г. был разработан регламент формирования Ядра РИНЦ и создан Научно-методический совет, который занимается экспертизой и отбором изданий.

Как отметил профессор, академик РАН, председатель Научно-методического совета Ядра РИНЦ Алексей ХОХЛОВ, в эту базу планируется добавить книги, индексируемые Web of Science Book Citation Index, Scopus, а также другие научные книжные издания, прошедшие экспертизу. В Научно-методическом совете считают, что необходимо проанализировать книги, которые цитируются лучше всего, и начать с них. Что касается сборников трудов конференций, то этот формат очень важен для ИТ-области, здесь это основной источник научной информации. В Ядро РИНЦ войдут сборники, индексируемые Web of Science Conference Proceedings Citation Index, Scopus, и другие издания трудов научных мероприятий, которые прошли экспертную оценку.

Алексей Хохлов сообщил, что Научно-методический совет утвердил регламент системы «Ядро РИНЦ». Он похож на регламент RSCI: при рассмотрении изданий будут осуществляться наукометрический анализ, а также общественная экспертиза.

— В RSCI было так: 10 тыс. учёных с наивысшими показателями цитирования разослали списки журналов и предложили их оценить. Эта практика была основой для отбора журналов в RSCI на первом этапе. Похожим образом будет организована работа для Ядра РИНЦ. Затем подключатся экспертные советы по направлениям, окончательное решение примет Научно-методический совет, — сообщил он.

ОСНОВНЫЕ ПОДХОДЫ

По информации заместителя генерального директора Научной электронной библиотеки eLIBRARY.RU Андрей НАЗАРЕНКО, в 2025 г. в мире вышло примерно 270 тыс. названий научных книг. Вклад России — 15 157 наименований.

Web of Science первой стала агрегировать научные книги: в 2005 г. На сегодняшний день в Book Citation Index около 165 тыс. наименований, и ежегодно база пополняется около 10 тыс. изданий. Scopus начал эту работу в 2010 г., в базе 465 тыс. книжных изданий, каждый год поступает 23–25 тыс. новых позиций. eLIBRARY.RU приступила к загрузке монографий в 2012 г., сейчас на платформе более 300 тыс. изданий.

Web of Science и Scopus агрегируют авторские и коллективные монографии, продолжающиеся книжные серии трудов академических организаций (НИИ и университетов). Такие же форматы будут включаться в Ядро РИНЦ.

Помимо этого Web of Science включает монографии на основе диссертаций, учебную литературу для аспирантов, литературные памятники с академическими комментариями и анализом текста. Scopus собирает крупные справочные издания (энциклопедии) и учебную литературу для магистратуры и выше. В Ядро РИНЦ учебные издания включаться не будут, за исключением тех случаев, когда серьёзная узкоспециализированная научная монография используется в учебном процессе.

Рассматриваются в первую очередь монографии (авторские и коллективные), сборники, словари, справочники, источниковедческие публикации, графические научные издания. Не принимаются методические указания, клинические рекомендации, комментарии к законам, патенты, отчёты о НИР, препринты, датасеты, диссертации, авторефераты, производственно-практические издания.

Что касается отбора, то Web of Science проводит его на уровне отдельных изданий. При этом осуществляются мониторинг издателя на соответствие формальным критериям и его оценка, проверка отдельного издания на качество оформления и наконец содержательная оценка издания, включая научность и рецензирование.

Scopus проводит отбор на уровне издателей и их книжных планов (ежегодный мониторинг). При этом качество отдельных изданий не оценивается тщательно, как в Web of Science.

В eLIBRARY.RU пошли по пути Web of Science: предусмотрен многоступенчатый отбор на уровне отдельных изданий. При этом проводятся проверка соответствия общим техническим требованиям и формальным критериям, экспертиза количественных показателей (библиометрия и статистика использования), оценка академической репутации автора, коллектива и организации, системы рецензирования и принятия решения об опубликовании.

— В академической репутации учитывается не только индекс Хирша учёного и другие показатели, которые можно рассчитать, но и его участие в редколлегиях, диссоветах, оппонирование диссертациям, научное руководство аспирантами, участие в крупных научных проектах, руководство грантами. Кроме того, если монография представляет какую-либо признанную в мире научную школу, следует ожидать, что она будет солидной. Завершает цикл экспертная оценка по существу. Обсуждается возможность использовать нейросети для оценки полных текстов, но пока надёжных подходов не существует. С другой стороны, возможности ИИ применимы для анализа библиографических списков монографий: можно оценить, локальная это работа или её автор ссылается на учёных с мировыми именами, — отметил эксперт.

Оценку проводят техническая служба сопровождения, группа мониторинга качества комплектования, специализированные экспертные советы, Научно-методический совет, также подключается общественная экспертиза (модель представлена на рисунке).

Научная аналитика: качество данных в приоритете

Для того чтобы издание попало в книжный кластер Ядра РИНЦ, необходима инициативная заявка правообладателя непериодического издания, общественного эксперта, члена специализированного экспертного совета или научно-методического совета.

ТРЕБОВАНИЯ И КРИТЕРИИ

Как отметил руководитель аналитического отдела Научной электронной библиотеки eLIBRARY.RU Павел АРЕФЬЕВ, прежде всего издание должно быть публичным.

— Это не означает, что оно должно быть обязательно в открытом доступе. Публичность подразумевает, что это не корпоративный сектор: с публикацией можно ознакомиться через подписку или открытый доступ, — подчеркнул эксперт.

Кроме того, издание должно быть опубликовано и представлено в офлайновом и/или онлайновом информационном хранилище, например в традиционной или электронной библиотеке, базе данных, на сайте в Интернете. Также обязателен набор метаданных, которые позволяют идентифицировать произведение или набор произведений (в случае составного издания) и представляют краткое описание его содержания.

Правообладатель должен предоставить полный текст книжного издания экспертам: это необходимое условие, для того чтобы оно попало в Ядро РИНЦ. Полный текст обрабатывается для возможности осуществления поиска. В каком виде книга будет доступна читателям — уже предмет отдельной договорённости правообладателя и eLIBRARY.RU.

Также издатель должен разместить в системе «Ядро РИНЦ» метаданные книги: библиографические данные на английском языке и на оригинальном языке публикации. Для периодического или продолжающегося издания (если это книжная серия) указывается ISSN, для отдельной книги нужно привести ISBN.

Кроме того, необходимо наличие идентификаторов: либо DOI, либо EDN.

Наполнение книжного кластера Ядра РИНЦ планируется начать с наиболее значимых монографий и сборников трудов. Самые цитируемые книги, которые уже загружены на eLIBRARY.RU, оцениваются через их авторов. Объектами содержательной экспертизы становятся монографии 10% наиболее цитируемых авторов, получившие не менее 10 ссылок из Ядра РИНЦ. Если издания были поддержаны грантами по издательским программам Российского фонда фундаментальных исследований (РФФИ), Российского гуманитарного научного фонда (РГНФ), отчасти Российского научного фонда, где большие исследовательские проекты заканчивались изданием монографий, то они тоже попадают в поле зрения экспертов.

Кроме того, было решено начать работу с ведущими российскими университетами, прежде всего с МГУ имени М.В. Ломоносова, Санкт-Петербургским государственным университетом (СПбГУ), НИУ ВШЭ, т.е. с теми вузами, которые проводят свои издательские конкурсы. Монографии, что прошли эти отборы, также претендуют на оценку и вхождение в книжный кластер Ядра РИНЦ.

Также будут оцениваться издания, вошедшие в международные системы Web of Science Core Collection и Scopus. Правда, здесь есть определённые трудности.

— Например, в Scopus содержатся 469 тыс. наименований, такой массив оценить сложно. Поэтому в первую очередь будут отбираться издания открытого доступа, включённые в Book Citation Index Web of Science или в книжный кластер Scopus, — отметил эксперт.

Следующий по очерёдности набор изданий — по инициативе учреждений науки и образования. Система подачи инициативных заявок пока в разработке.

Как отметила учёный секретарь Научно-методического совета Ядра РИНЦ Ольга БОГОМОЛОВА, в настоящий момент в базу включены 14 тыс. изданий 10% наиболее цитируемых авторов, получившие не менее 10 ссылок из Ядра РИНЦ.

— Сейчас мы пытаемся проанализировать, насколько актуально это требование. Возможно, по каким-то областям оно должно быть усилено или, наоборот, ослаблено. Может быть, основной фактор — это цитирование книги и стоит понижать значимость цитируемости автора, или наоборот, — сообщила эксперт.

Параллельно рассматриваются списки книг — победителей архивных конкурсов: тех, что проводились организациями, которые перестали существовать. Сейчас обрабатывается массив книг — победителей конкурса РФФИ (около 3 тыс. названий) и конкурсов РГНФ (примерно 6 тыс.).

Следующий этап — анализ книг, ставших победителями в конкурсах действующих авторитетных организаций (СПбГУ, МГУ, НИУ ВШЭ). Сейчас в этом списке около 300 изданий.

Научная аналитика: качество данных в приоритете


Рубрика: Наука и образование

Год: 2026

Месяц: 3

Теги: eLIBRARY.RU Научный контент Научное цитирование Научные журналы Открытый доступ Российский индекс научного цитирования (РИНЦ) Геннадий Еременко Виктор Глухов Алексей Хохлов Андрей Назаренко Павел Арефьев Ольга Богомолова